1 Lezione 2 - 27-09
Data Mining: estrazione di informazioni da dati strutturati, non ho idea di quello che sto cercando (es. Ricerca di pattern)
Text Mining: processo di estrazione di informazioni non banali, implicite, sconosciute e potenzialmente utili, da grandi quantità di dati testuali
Ritrovamento dell’informazione: gestisce la rappresentazione, la memorizzazione, l’organizzazione e l’accesso a dati non strutturati
- Il primo obiettivo è ritrovare i documenti più rilevanti per una query
- Il secondo obiettivo è quello di ritrovarli da grandi collezioni in maniera efficiente
Domanda
Descrivere brevemente i principali moduli di un sistema di Information Retrieval
Risposta
Un sistema di IR dovrebbe essere strutturato da diverse componenti:
- Operazioni sul testo finalizzate alla creazione di indici sulle parole (tokens) attraverso la rimozione di stopword e operazioni di stemming e lemmatizzazione;
- Indicizzazione attraverso la creazione di un indice invertito scansionando tutte le parole dei documenti. Si definisce indice invertito in quanto ad ogni parola si fa corrispondere una lista di documenti che la contengono (posting list) piuttosto che il contrario;
- Ricerca sui documenti che contengono i token di una data query sulla base dell’indice invertito;
- Ranking, assegna ad ogni documento un punteggio basato sulle metriche di rilevanza adottate.